Cloud Data Fusion で Dataplex のデータリネージ統合を試してみた

Cloud Data Fusion で Dataplex のデータリネージ統合を試してみた

Clock Icon2024.10.31

こんにちは!エノカワです。

Cloud Data Fusion はデータ パイプラインを素早く構築、管理できる、クラウドネイティブのフルマネージド エンタープライズ データ統合サービスです。

Dataplex は、分散データを統合し、そのデータのデータ マネジメントとガバナンスを自動化するデータ ファブリックです。

試したこと

今回は、Cloud Data Fusion で Dataplex のデータリネージ統合を試してみました。
下記のドキュメントに沿って実施してみましたので、その内容をご紹介します。

準備

Cloud Data Fusion のリネージグラフを表示できるようにするために、以下の手順を行います。

  • Cloud Data Fusion インスタンスを含むプロジェクトで Data Lineage API を有効にします
  • Cloud Data Fusion マネージド サービス アカウント、Cloud Data Fusion API サービス エージェントに、データリネージ イベント プロデューサーのロール(roles/datalineage.producer)付与します

cloud-data-fusion-dataplex_01

なお、インスタンス作成、パイプライン構築、デプロイなど Cloud Data Fusion の基本的な操作については、下記エントリで紹介しておりますので、こちらもご参照ください!

インスタンス作成

Cloud Data Fusion インスタンスを作成します。

Google Cloud コンソールで、Cloud Data Fusion の [インスタンス] ページに移動し、[インスタンスを作成] をクリックします。

cloud-data-fusion-dataplex_02

インスタンス作成画面が表示されるので、作成するインスタンスの情報を入力します。
今回は以下の情報を入力しました。

  • インスタンス名
    test-fusion
  • リージョン
    asia-northeast1 を選択
  • バージョン
    6.10.1 を選択
  • エディション
    デベロッパー を選択

cloud-data-fusion-dataplex_03

Dataplex データリネージを有効にする

Cloud Data Fusion の新しいインスタンスでは、Dataplex データリネージがデフォルトで無効になっています。

[詳細オプション] セクションを展開し、[Dataplex データリネージとの統合を有効にする] をクリックします。

cloud-data-fusion-dataplex_04

[作成] ボタンをクリック後、しばらくするとインスタンスが作成されます。

これで準備が整いました。パイラインの作成に入っていきましょう!

パイプライン作成

[インスタンスを表示] をクリックします。

cloud-data-fusion-dataplex_05

Cloud Data Fusion のホーム画面が表示されました。
[Integrate][Studio] をクリックします。

cloud-data-fusion-dataplex_06

Pipeline Studio のページに切り替わりました。
このページで、ソース、変換、シンクなどのノードを接続することで、パイプラインを作成できます。

Dataplex データリネージをサポートするプラグイン

Cloud Data Fusion のリネージグラフを表示できるようにするには、サポートされているプラグインのみを使用するパイプラインを作成する必要があります。

2024年10月時点でサポートされているプラグインは下記のとおりです。

  • Amazon S3
  • BigQuery
  • BigQuery マルチテーブル シンク(バージョン 6.9.1 以降)
  • Spanner
  • Cloud Storage
  • Cloud SQL for MySQL
  • Cloud SQL for PostgreSQL
  • Dataplex
  • FTP
  • 汎用データベース
  • HTTP
  • MSSQL / SQL Server
  • 複数のデータベース テーブルのソース(バージョン 6.9.1 以降)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • SAP Table

今後も追加されていくと思われますので最新のサポート状況は下記ドキュメントを参照ください。

今回はデータリネージ統合を試すため、Cloud StorageBigQuery を使用したパイプラインを作成します。

クイックスタート用パイプラインをデプロイ

Cloud Data Fusion には機能を拡張するために使用できるカスタマイズ可能なモジュールとして、プラグインがあります。

プラグインでは、クイックスタート用のパイプライン「Cloud Data Fusion Quickstart」が用意されています。

Cloud Storageノード、BigQueryノードを使用したパイプラインなので、 こちらをデプロイしていきます。

画面右上の [HUB] をクリックします。

cloud-data-fusion-dataplex_07

コンポーネントの一覧が表示されるので、ここから「Cloud Data Fusion Quickstart」を探して [Create] をクリックします。

cloud-data-fusion-dataplex_08

デプロイ画面が表示されるので、[Finish] をクリックします。

cloud-data-fusion-dataplex_09

パイプラインの作成が完了しました。
続けてパイプラインのデプロイを行いますので、[Customize Pipeline] をクリックします。

cloud-data-fusion-dataplex_10

Pipeline Studio のページに切り替わりました。

Cloud StorageWrangerBigQuery の順で接続されたパイプラインであることが確認できます。
GCSファイル読み込み、データ加工、BigQueryインサートを行うパイプラインとなります。

画面右上の [Deploy] をクリックします。

cloud-data-fusion-dataplex_11

パイプラインのデプロイが開始されました。

cloud-data-fusion-dataplex_12

しばらくすると、画面が切り替わりました。

cloud-data-fusion-dataplex_24

画面上部の StatusDeployed と表示されています。
パイプラインのデプロイが完了したようです。

パイプライン実行

それではパイプラインを実行してみましょう。

画面上部の [Run] をクリックします。

cloud-data-fusion-dataplex_13

時間経過とともに Status が変わっていきます。

cloud-data-fusion-dataplex_25

画面上部の StatusSucceeded と表示されています。
パイプラインの実行が正常に完了したようです。

Dataplex の UI 上でリネージグラフを確認してみましょう。

リネージグラフを確認する

Dataplex の UI からデータ取り込み先である BigQuery テーブル top_rated_inexpensive を検索します。

cloud-data-fusion-dataplex_14

top_rated_inexpensive を選択して 「リネージ」 を表示します。

上から一番目のフローでは、GCS(nyt2.json)から top_rated_inexpensive へのデータの流れが確認できます。

cloud-data-fusion-dataplex_16

GCS から BigQuery へのフロー上にある Cloud Data Fusion のアイコンをクリックすると、インスタンス名や 名前空間、パイプライン名を含む プログラム ID などの情報を確認することができます。

cloud-data-fusion-dataplex_17

上から二番目以降のフローでも同様に、GCSから BigQuery へのデータの流れが確認できますが、GCS のオブジェクトが AVRO形式 になっています。
また、GCS から BigQuery へのフロー上にあるアイコンも BigQuery のものになっています。

cloud-data-fusion-dataplex_18

このフローは、パイプライン実行によるデータロードのプロセスとなります。
Cloud Data Fusion では、内部的にデータを AVRO形式 に変換して BigQueryに取り込んでいるようです。

パイプラインの実行を 3回 行った後でしたので、その回数分のデータ移動が追跡され、データリネージとして表示されているようです。

Cloud Data Fusion のデータリネージ

Cloud Data Fusion のメタデータを使用してデータリネージを調べることも可能です。

Cloud Data Fusion のホーム画面で [Discover and govern][Metadata] をクリックします。

cloud-data-fusion-dataplex_19

検索窓にキーワードを入れてデータセットを探します。

今回実行したパイプラインの BigQuery ノードである Top_Rated_Inexpensive_Books のデータセットが見つかりましたので、クリックします。

cloud-data-fusion-dataplex_20

[Lineage] タブをクリックします。

リネージグラフで、このデータセットが NYT_BestSellers データセットを使用した パイプラインによって生成されたことが確認できます。

cloud-data-fusion-dataplex_22

画面右上の [FIELD LEVEL LENEAGE] をクリックすると、フィールド レベルのリネージが表示されます。

データセットのフィールドと、フィールド セットに対して実行して別のフィールド セットを生成する変換との間の関係が確認できます

cloud-data-fusion-dataplex_23

まとめ

以上、Cloud Data Fusion で Dataplex のデータリネージ統合を試してみました。

インスタンス作成時にオプションで Dataplex のデータリネージ統合を有効にするだけで、コンソールの [Dataplex] ページでリネージグラフを表示することができました。

Cloud Data Fusion と Dataplex の連携により、パイプライン実行によるデータ移動が追跡できるので、他の Google Cloud サービスも含めたシステム全体で、データの出所や変換プロセスを把握するのに役立つ機能だと感じました。

データリネージの自動追跡

データリネージは、次の Google Cloud サービスとの統合をサポートしています。(2024年10月時点)

  • BigQuery
  • Cloud Data Fusion
  • Cloud Composer
  • Dataproc
  • Vertex AI

以下の記事では、Cloud Composer で Dataplex のデータリネージ統合を試しておりましたので、こちらもご参照ください!

参考

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.